Lecture 27 - HTML with Python


Aprender a usar HTML com Python e com o pacote pandas.


In [1]:
# Importando os módulos necessários
from pandas import Series, DataFrame
import pandas as pd
from pandas import read_html

In [33]:
url = 'http://www.fdic.gov/bank/individual/failed/banklist.html'
url = 'http://www.bmfbovespa.com.br/cias-listadas/eventos-corporativos/ResumoEmpresaDemoFinancAtualizacoes.aspx?idioma=pt-br'
url = 'http://pregao-online.bmfbovespa.com.br/Principal.aspx?idioma=pt-BR'

Bibliotecas necessárias para funcionamento com html

  • pip install beautiful-soup (Beautifulsoup4)
  • pip install html5lib

In [34]:
dframe_list = pd.io.html.read_html(url)

In [38]:
#dframe = dframe_list[0]

maiores_altas = dframe_list[0]
maiores_baixas = dframe_list[1]
mais_negociadas = dframe_list[2]

maiores_altas


Out[38]:
0 1 2 3
0 Ação Osc. (%) Preço (R$) Hora
1 VALE ON EJ N1 1071 2335 17:56
2 VALE PNA EJ N1 678 1873 17:59
3 ELETROBRAS ON N1 608 732 17:59
4 KROTON ON NM 529 1174 17:57
5 BRADESPAR PN N1 524 1265 17:56

In [39]:
maiores_baixas


Out[39]:
0 1 2 3
0 Ação Osc. (%) Preço (R$) Hora
1 LOCALIZA ON NM -310 3682 17:59
2 CCR SA ON ED NM -265 1611 17:59
3 BRF SA ON NM -237 6082 17:59
4 MARCOPOLO PN N2 -237 288 17:59
5 MULTIPLAN ON N2 -226 5647 17:46

In [41]:
mais_negociadas


Out[41]:
0 1 2 3
0 Ação Vol. (R$ Mil) Part.(%) Hora
1 PETROBRAS PN 1.408.08235 1494 17:59
2 VALE PNA EJ N1 928.37900 985 17:59
3 ITAUUNIBANCO PN N1 913.04830 969 17:59
4 PETROBRAS ON 708.06622 751 17:59
5 VALE ON EJ N1 477.89708 507 17:56

In [40]:
# Como ver as colunas ?
dframe.columns.values


Out[40]:
array([0, 1, 2, 3], dtype=int64)

In [ ]: